Model Selection

300M parameter ViT

# 300M parameter ViT

Webssl Dino300m Full2b 224

A 224-resolution Vision Transformer model based on 2 billion MetaCLIP data, trained using DINOv2 self-supervised learning method

Image Classification

Sapiens Pretrain 0.3b

Sapiens is a vision Transformer model pretrained on 300 million high-resolution human images, specifically designed for human-centric vision tasks.

Image Classification English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase